Ok, für den durchschnittlichen Fall wird es ziemlich kompliziert, ich denke mal, es ist an Beispielen viel anschaulicher.
Zunächst muss ich aber die Einschränkung machen, dass die End- und Anfangsbuchstaben rein zufällig sind. Ohne Wissen über den Eingabe-Datensatz lässt es sich kaum besser machen (ok, man könnte einen Duden per Programm analysieren, welche Endungen und Anfangsbuchstaben am häufigsten vorkommen - aber soviel ist mir das Problem doch nicht wert

).
Ich gehe also von zufälligen Endbuchstaben- und Anfangsbuchstaben-Dreierpacks aus. Zugelassen sind das Alphabet, die drei Umlaute und das "ß", also 30 Buchstaben. Es macht nicht wirklich einen Unterschied, ob man 26 oder 30 oder 40 Buchstaben ansetzt, sieht man später. Die 30 sind jedenfalls recht bequem für meine Zwecke. Drei Buchstaben hintereinander mit jeweils 30 verschiedenen Möglichkeiten ergeben insgesamt 30 * 30 * 30 Dreierpacks, also satte 27000.
Fangen wir mal an, Wort für Wort...
1. Wort
Hier nimmt man einfach nur das erste Wort der Datei, das zweite etc. . Kümmern wir uns zunächst das erste.
2. Wort
Unser erstes Wort hat nun eine festgelegte Endung. Die Chance, dass ein weiteres Wort diese drei Buchstaben zufällig als Anfang hat, ist ziemlich gering - 1 zu 27000. Entsprechend ist die Chance, dass das Wort nicht passt, 26999 zu 27000, fast 100% also.
Aber wir haben ja n-1 Kandidaten (ursprünglich waren es n Wörter, eins wurde erstes Wort). Die Chance, dass
keins davon passt, ist 26999 zu 27000 pro Kandidat. Mathematisch ausgedrückt...
P(nur ein Wort in der Kette) = (26999/27000) ^ (n-1)
Es könnte allerdings mindestens ein Wort passen, das wäre dann das Gegenereignis (Gegenereignis und Ereignis haben zusammen immer die Wahrscheinlichkeit 1 bzw. 100%, sie decken gemeinsam alle Möglichkeiten ab)...
P(mindestens ein Wort passt als zweites) = 1 - P(nur ein Wort in der Kette)
= 1 - (26999/27000) ^ (n-1)
Die Wahrscheinlichkeit für das Gegenereignis ist allerdings verdammt nah an 0, also extrem unwahrscheinlich, solange n nicht einigermassen gross ist.
Nehmen wir mal an, der zweite Fall ist eingetreten, wir haben also ein passendes zweites Wort für die Kette gefunden.
3. Wort
Die Kandidatenschar ist schon leicht geschrumpft, es sind nur noch n-2. Interessant ist jetzt erstmal wieder, wie wahrscheinlich es ist, dass keins passt.
P(nur zwei Wörter in der Kette) = (26999/27000) ^ (n-2)
Wie eben können wir davon das Gegenereignis bilden.
P(mindestens ein Wort passt als drittes) = 1 - (26999/2700) ^ (n-2)
Dabei haben wir allerdings unterschlagen, dass überhaupt erstmal ein zweites Wort her muss, was ja garnicht sicher ist. Die Wahrscheinlichkeit von P(mindestens ein Wort passt als zweites) muss jeweils an P(nur zwei...) und an P(...als drittes) multipliziert werden, als Vorbedingung.
P(nur zwei...) = ( 1 - (26999/27000) ^ (n-1) ) * ( (26999/27000) ^ (n-2) )
P(... als drittes) = ( 1 - (26999/27000) ^ (n-1) ) * ( 1 - (26999/2700) ^ (n-2) )
Ich wechsle gleich zu zwei Beispielen, wird langsam unübersichtlich. Vorher noch schnell das...
4. Wort
P(nur drei...) = P(... als drittes) * (26999/27000) ^ (n-3)
P(...als viertes) = 1 - P(... als drittes) * (26999/27000) ^ (n-3)
Fortsetzung im nächsten Posting...